深度学习在识别视频行动方面取得了巨大成功,但培训数据的收集和注释仍然相当艰苦,这主要是两个方面:(1)所需的注释数据量大; (2)在临时注释每个动作的位置是耗时的。已经提出了诸如少量学习或未过时的视频识别等工作以处理一个方面或另一个方面。但是,很少有现有工程可以同时处理这两个问题。在本文中,我们针对一个新的问题,注释高效的视频识别,以减少对大量样本和动作位置的注释要求。这种问题由于两个方面而挑战:(1)未经监测的视频仅具有薄弱的监督; (2)与当前利益行动(背景,BG)无关的视频段可能包含新颖类别中的利益(前景,FG)的行动,这是一种广泛存在的现象,但很少在少量未经监测的视频识别中进行了研究。为了实现这一目标,通过分析BG的属性,我们将BG分类为信息BG(IBG)和非信息性BG(NBG),并提出(1)基于开放式检测的方法来找到NBG和FG, (2)一种对比学习方法,用于学习IBG,以自我监督方式区分NBG,(3)用于更好地区的IBG和FG的自我加权机制。关于ActivityNet V1.2和ActivityNet V1.3的广泛实验验证了所提出的方法的理由和有效性。
translated by 谷歌翻译
Entity alignment is to find identical entities in different knowledge graphs (KGs) that refer to the same real-world object. Embedding-based entity alignment techniques have been drawing a lot of attention recently because they can help solve the issue of symbolic heterogeneity in different KGs. However, in this paper, we show that the progress made in the past was due to biased and unchallenging evaluation. We highlight two major flaws in existing datasets that favor embedding-based entity alignment techniques, i.e., the isomorphic graph structures in relation triples and the weak heterogeneity in attribute triples. Towards a critical evaluation of embedding-based entity alignment methods, we construct a new dataset with heterogeneous relations and attributes based on event-centric KGs. We conduct extensive experiments to evaluate existing popular methods, and find that they fail to achieve promising performance. As a new approach to this difficult problem, we propose a time-aware literal encoder for entity alignment. The dataset and source code are publicly available to foster future research. Our work calls for more effective and practical embedding-based solutions to entity alignment.
translated by 谷歌翻译
6多机器人抓钩是一个持久但未解决的问题。最近的方法利用强3D网络从深度传感器中提取几何抓握表示形式,表明对公共物体的准确性卓越,但对光度化挑战性物体(例如,透明或反射材料中的物体)进行不满意。瓶颈在于这些物体的表面由于光吸收或折射而无法反射准确的深度。在本文中,与利用不准确的深度数据相反,我们提出了第一个称为MonograspNet的只有RGB的6-DOF握把管道,该管道使用稳定的2D特征同时处理任意对象抓握,并克服由光学上具有挑战性挑战的对象引起的问题。 MonograspNet利用关键点热图和正常地图来恢复由我们的新型表示形式表示的6-DOF抓握姿势,该表示的2D键盘具有相应的深度,握把方向,抓握宽度和角度。在真实场景中进行的广泛实验表明,我们的方法可以通过在抓住光学方面挑战的对象方面抓住大量对象并超过基于深度的竞争者的竞争成果。为了进一步刺激机器人的操纵研究,我们还注释并开源一个多视图和多场景现实世界抓地数据集,其中包含120个具有20m精确握把标签的混合光度复杂性对象。
translated by 谷歌翻译
我们研究了合作航空航天车辆路线应用程序的资源分配问题,其中多个无人驾驶汽车(UAV)电池容量有限和多个无人接地车辆(UGV),这也可以充当移动充电站,需要共同实现诸如持续监视一组要点之类的任务。由于无人机的电池能力有限,他们有时必须偏离任务才能与UGV进行集合并得到充电。每个UGV一次可以一次提供有限数量的无人机。与确定性多机器人计划的先前工作相反,我们考虑了无人机能源消耗的随机性所带来的挑战。我们有兴趣找到无人机的最佳充电时间表,从而最大程度地减少了旅行成本,并且在计划范围内没有任何无人机在计划范围内取消收费的可能性大于用户定义的公差。我们将此问题({风险意识召集集合问题(RRRP))}作为整数线性程序(ILP),其中匹配的约束捕获资源可用性约束,而背包约束捕获了成功概率约束。我们提出了一种求解RRRP的双晶格近似算法。在一个持续监测任务的背景下,我们证明了我们的制定和算法的有效性。
translated by 谷歌翻译
使用机器学习和深度学习来预测脑电图(EEG)信号的认知任务,一直是脑部计算机界面(BCI)的快速发展领域。然而,在Covid-19大流行期间,数据收集和分析可能更具挑战性。大流行期间的远程实验产生了一些挑战,我们讨论了可能的解决方案。本文探讨了可以在BCI分类任务上有效运行的机器学习算法。结果表明,随机森林和RBF SVM在脑电图分类任务方面表现良好。此外,我们研究了如何使用负担得起的消费级设备进行此类BCI实验以收集基于脑电图的BCI数据。此外,我们已经开发了数据收集协议EEG4学生,该协议授予对此类数据收集指南感兴趣的非专家。我们的代码和数据可以在https://github.com/guangyaodou/eeg4students上找到。
translated by 谷歌翻译
知识图(KG)嵌入寻求学习实体和关系的向量表示。传统的模型理由是图形结构,但它们遭受了图形不完整和长尾实体的问题。最近的研究使用了预训练的语言模型根据实体和关系的文本信息来学习嵌入,但它们无法利用图形结构。在论文中,我们从经验上表明,这两种特征是KG嵌入的互补性。为此,我们提出了Cole,Cole是一种用于嵌入KG的共同介绍方法,可利用图形结构和文本信息的互补性。其图形嵌入模型使用变压器从其邻域子图中重建实体的表示。其文本嵌入模型使用预训练的语言模型来从其名称,描述和关系邻居的软提示中生成实体表示。为了让两个模型相互推广,我们提出了共同依据学习,使他们可以从彼此的预测逻辑中提取选择性知识。在我们的共同阶段学习中,每个模型既是老师又是学生。基准数据集上的实验表明,这两个模型的表现优于其相关基线,而与共同介绍学习的集合方法Cole可以推进KG嵌入的最先进。
translated by 谷歌翻译
在本文中,我们介绍了DA $^2 $,这是第一个大型双臂灵敏性吸引数据集,用于生成最佳的双人握把对,用于任意大型对象。该数据集包含大约900万的平行jaw grasps,由6000多个对象生成,每个对象都有各种抓紧敏度度量。此外,我们提出了一个端到端的双臂掌握评估模型,该模型在该数据集的渲染场景上训练。我们利用评估模型作为基准,通过在线分析和真实的机器人实验来显示这一新颖和非平凡数据集的价值。所有数据和相关的代码将在https://sites.google.com/view/da2dataset上开源。
translated by 谷歌翻译
使用机器学习和深度学习来预测脑电图(EEG)信号的认知任务是脑部计算机界面(BCI)的快速前进的领域。与计算机视觉和自然语言处理的领域相反,这些试验的数据数量仍然很小。开发基于PC的机器学习技术来增加非专家最终用户的参与,可以帮助解决此数据收集问题。我们为机器学习创建了一种新颖的算法,称为时间多数投票(TMV)。在我们的实验中,TMV的性能比尖端算法更好。它可以在个人计算机上有效运行,以进行涉及BCI的分类任务。这些可解释的数据还可以帮助最终用户和研究人员更好地理解脑电图测试。
translated by 谷歌翻译
深度估计是某些领域的关键技术之一,例如自动驾驶和机器人导航。但是,使用单个传感器的传统方法不可避免地受到传感器的性能的限制。因此,提出了一种融合激光镜头和立体声摄像机的精度和健壮方法。该方法完全结合了LiDAR和立体声摄像机的优势,这些摄像头可以保留LIDAR高精度和图像的高分辨率的优势。与传统的立体声匹配方法相比,对象和照明条件的质地对算法的影响较小。首先,将LIDAR数据的深度转换为立体声摄像机的差异。由于LiDAR数据的密度在Y轴上相对稀疏,因此使用插值方法对转换的差异图进行了更采样。其次,为了充分利用精确的差异图,融合了差异图和立体声匹配以传播准确的差异。最后,将视差图转换为深度图。此外,转换后的差异图还可以提高算法的速度。我们在Kitti基准测试中评估了拟议的管道。该实验表明,我们的算法比几种经典方法具有更高的精度。
translated by 谷歌翻译
离散的无向图形模型,也称为Markov随机字段(MRFS),可以灵活地编码多个变量的概率交互,并享有成功的应用程序到广泛的问题。然而,众所周知的尚未研究的离散MRF的限制是他们无法捕获特定于上下文的独立性(CSI)。现有方法需要仔细开发的理论和专用构建推理方法,这限制了它们的应用程序只有小规模问题。在本文中,我们提出了Markov注意模型(MAM),这是一种独立的MRF系列,它包括注意机制。关注机制允许变量动态地参加其他变量,同时忽略其余部分,并启用MRFS中的CSIS捕获。将MAM配制为MRF,使其能够从丰富的现有MRF推理方法和规模中受益于大型模型和数据集。为了展示MAM以规模捕获CSI的能力,我们将MAM应用于捕获一种重要类型的CSI,其以感知分组中的复发计算的符号方法存在。在最近提出的两个综合性感知分组任务和现实图像上的实验证明了MAMS在与强大的经常性神经网络基线相比的采样效率,可解释性和概括性的优势,并验证MAM能力以规模有效地捕获CSIS。
translated by 谷歌翻译